Probabilidad y Estadística: La Ciencia de la Incertidumbre: De la Probabilidad a la Verosimilitud: La Ciencia de la Inferencia

La inferencia estadística marca la transición de predecir resultados basados en parámetros conocidos (probabilidad) a determinar qué parámetros son más consistentes con los datos observados (verosimilitud). Mientras que una función de densidad de probabilidad $f(x|\theta)$ describe la distribución de los datos $x$ para un $\theta$ fijo, la función de verosimilitud $L(\theta|x)$ trata los datos observados como fijos y varía el parámetro $\theta$ para cuantificar el soporte relativo de diferentes hipótesis.

El Principio de Inversión

La función de verosimilitud a menudo se expresa en forma de densidad conjunta. Para una distribución Normal con varianza fija, la verosimilitud está definida por:

$L ( \theta | x_1, \dots, x_n ) = \exp\left( -\frac{n}{2\sigma_0^2} (\bar{x} - \theta)^2 \right)$

Aquí evaluamos la "plausibilidad" de distintos valores de $\theta$ dados la media muestral $\bar{x}$. Para encontrar el pico de esta plausibilidad, utilizamos Definición 6.2.2: la verosimilitud logarítmica $l(\theta | s) = \ln L(\theta | s)$. Esta transformación simplifica productos de observaciones independientes en sumas, haciendo que la maximización de modelos complejos sea computacionalmente factible.

Ejemplo Resuelto: La Encuesta de Alturas (EJEMPLO 6.3.5)

Los Datos

Considere una muestra de $n=30$ alturas con una desviación estándar calculada de $s=2.379$. Usando el modelo Normal de localización-escala, buscamos inferir la media verdadera $\theta$.

Inferencia y Precisión

El error estándar se calcula como $s/\sqrt{30} = 0.43434$. Este valor mide la "agudeza" de nuestro pico de verosimilitud. Un error estándar menor implica un pico más estrecho y agudo, representando una mayor precisión en nuestra inferencia sobre $\theta$.

Dimensionalidad y Restricciones

En escenarios complejos como EJEMPLO 6.1.5 (Modelos Multinomiales), debemos tener en cuenta dependencias lógicas. Como se señala: "Observe que en realidad es solo bidimensional, porque tan pronto como conocemos el valor de cualquiera de los dos $\theta_i$... inmediatamente conocemos el valor del parámetro restante." Esta restricción es vital para definir correctamente el espacio de parámetros $\Omega$.

Fundamentos Asintóticos

El puente desde la verosimilitud hasta la inferencia depende del Teorema del Límite Central. Cuando $n \to \infty$, la distribución de nuestros estimadores converge. Específicamente, en el EJEMPLO 6.5.4 Modelo Bernoulli:

$Z = \frac{\sqrt{n}(\bar{X} - \theta)}{\sqrt{\bar{X}(1 - \bar{X})}} \xrightarrow{D} N(0, 1)$

Esto nos permite cuantificar la incertidumbre usando intervalos z y valores p, siempre que contemos con muestras suficientemente grandes.

🎯 Principio Fundamental

Los métodos de inferencia estadística sin distribución requieren únicamente supuestos mínimos sobre la distribución de muestreo, lo que los hace robustos cuando la familia $\{P_{\theta} : \theta \in \Omega\}$ es muy grande. En contraste, los métodos de verosimilitud paramétricos dependen de la curvatura de la verosimilitud logarítmica, donde la Información de Fisher $nI(\theta)$ determina la varianza de nuestra función de puntaje.

PREGUNTA 1

6.1.2: Suponga que los suicidios ocurren a una tasa $p$ por año-persona (Poisson(Np)). Si observamos 22 suicidios en $N=30,345$ años-persona, ¿cuál es la función de verosimilitud logarítmica $l(p)$?

$l(p) = -30345p + 22\ln(p) + C$

$l(p) = 30345\ln(p) - 22p + C$

$l(p) = e^{-30345p} p^{22}$

$l(p) = -22p + 30345\ln(p)$

PREGUNTA 2

6.3.14: Un intervalo de confianza del 95% para $\psi(\theta)$ es $(1.23, 2.45)$. ¿Hay evidencia contra $H_0 : \psi(\theta) = 2$?

No, porque 2 está dentro del intervalo.

Sí, porque 2 no es el centro del intervalo.

Sí, al nivel $\alpha=0.01$.

Información insuficiente para concluir.

PREGUNTA 3

Verifique el tercer momento de $N(\mu, \sigma^2)$. ¿Qué expresión representa $\mu_3 = E_{\theta}(X^3)$?

$\mu^3 + 3\mu\sigma^2$

$\mu^3 + \sigma^3$

$3\mu^2\sigma + \mu^3$

$\mu^3 + 3\sigma^2$

PREGUNTA 4

6.5.1: Si $x_1, \dots, x_n \sim N(\mu_0, \sigma^2)$ con $\mu_0$ conocido, ¿cuál es la información de Fisher $I(\sigma^2)$?

$1 / (2\sigma^4)$

$1 / \sigma^2$

$n / (2\sigma^2)$

$2\sigma^4$

PREGUNTA 5

En un modelo multinomial de $k$ categorías (EJEMPLO 6.1.5), ¿cuál es la dimensionalidad efectiva del espacio de parámetros?

$k - 1$

$k$

$k^2$

$1$